强化学习

强化学习

实质是make decisions问题，即自动进行决策，并且可以做连续决策。

与监督学习的区别

监督学习	强化学习
反馈映射	输出的是之间的关系，可以告诉算法什么样的输入对应什么样的输出	输出的是给机器的反馈reward function，，即用来判断这个行为是好是坏
反馈时间	做了比较坏的选择会立刻反馈给算法	结果反馈有延时，有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏
输入特征	输入是独立同分布的	面对的输入总是在变化，每当算法做出一个行为，它影响下一次决策的输入